Graph Neural Networks (GNNs) have been a prevailing technique for tackling various analysis tasks on graph data. A key premise for the remarkable performance of GNNs relies on complete and trustworthy initial graph descriptions (i.e., node features and graph structure), which is often not satisfied since real-world graphs are often incomplete due to various unavoidable factors. In particular, GNNs face greater challenges when both node features and graph structure are incomplete at the same time. The existing methods either focus on feature completion or structure completion. They usually rely on the matching relationship between features and structure, or employ joint learning of node representation and feature (or structure) completion in the hope of achieving mutual benefit. However, recent studies confirm that the mutual interference between features and structure leads to the degradation of GNN performance. When both features and structure are incomplete, the mismatch between features and structure caused by the missing randomness exacerbates the interference between the two, which may trigger incorrect completions that negatively affect node representation. To this end, in this paper we propose a general GNN framework based on teacher-student distillation to improve the performance of GNNs on incomplete graphs, namely T2-GNN. To avoid the interference between features and structure, we separately design feature-level and structure-level teacher models to provide targeted guidance for student model (base GNNs, such as GCN) through distillation. Then we design two personalized methods to obtain well-trained feature and structure teachers. To ensure that the knowledge of the teacher model is comprehensively and effectively distilled to the student model, we further propose a dual distillation mode to enable the student to acquire as much expert knowledge as possible.
translated by 谷歌翻译
The ubiquity of edge devices has led to a growing amount of unlabeled data produced at the edge. Deep learning models deployed on edge devices are required to learn from these unlabeled data to continuously improve accuracy. Self-supervised representation learning has achieved promising performances using centralized unlabeled data. However, the increasing awareness of privacy protection limits centralizing the distributed unlabeled image data on edge devices. While federated learning has been widely adopted to enable distributed machine learning with privacy preservation, without a data selection method to efficiently select streaming data, the traditional federated learning framework fails to handle these huge amounts of decentralized unlabeled data with limited storage resources on edge. To address these challenges, we propose a Federated on-device Contrastive learning framework with Coreset selection, which we call FedCoCo, to automatically select a coreset that consists of the most representative samples into the replay buffer on each device. It preserves data privacy as each client does not share raw data while learning good visual representations. Experiments demonstrate the effectiveness and significance of the proposed method in visual representation learning.
translated by 谷歌翻译
在视频中检测动作已被广泛应用于设备应用程序。实用的设备视频始终没有动作和背景。希望既可以识别动作类别又定位动作发生的时间位置。这样的任务称为“时间动作位置”(TAL),该位置总是在收集和标记多个未修剪视频的云上训练。希望TAL模型不断地从新数据中学习,这可以直接提高动作检测精度,同时保护客户的隐私。但是,训练TAL模型是不平凡的,因为需要具有时间注释的大量视频样本。但是,逐帧的注释视频非常耗时且昂贵。尽管已经提出了仅使用视频级标签的未修剪视频来学习弱监督的TAL(W-TAL),但这种方法也不适合在设备学习方案中。在实用的设备学习应用中,在流中收集数据。将如此长的视频流分为多个视频片段需要大量的人为努力,这阻碍了将TAL任务应用于现实的设备学习应用程序的探索。为了使W-TAL模型能够从长时间的未修剪流视频中学习,我们提出了一种有效的视频学习方法,可以直接适应新的环境。我们首先提出了一种自适应视频划分方法,采用基于对比分数的段合并方法将视频流转换为多个段。然后,我们探索TAL任务上的不同采样策略,以要求尽可能少的标签。据我们所知,我们是直接从设备的长视频流中学习的首次尝试。
translated by 谷歌翻译
近年来,生成的对抗网络(GAN)在各种任务和应用中都显示出了令人信服的结果。但是,模式崩溃仍然是gan的关键问题。在本文中,我们提出了一条新型的培训管道,以解决甘恩斯的模式崩溃问题。与现有方法不同,我们建议将鉴别器概括为特征嵌入,并最大程度地提高鉴别器学到的嵌入空间中分布的熵。具体而言,两个正则化术语,即深度局部线性嵌入(DLLE)和深度等距特征映射(疾病),旨在鼓励歧视者学习嵌​​入数据中的结构信息,以便可以是歧视器所学的嵌入空间,可以是可以得到的。形成良好。基于鉴别器支持的良好学习嵌入空间,非参数熵估计量旨在有效地最大化嵌入向量的熵,以最大化生成分布的熵的近似值。通过改善鉴别器并最大化嵌入空间中最相似的样品的距离,我们的管道可有效地减少模式崩溃的情况,而无需牺牲生成的样品的质量。广泛的实验结果表明,我们的方法的有效性超过了GAN基线,MAF-GAN在Celeba上(9.13 vs. 12.43),超过了最新的基于动漫的能量模型(Anime-Face DataSet( 2.80 vs. 2.26的成立得分)。
translated by 谷歌翻译
在皮肤病学诊断中,移动皮肤病学助理收集的私人数据存在于患者的分布式移动设备上。联合学习(FL)可以使用分散数据来训练模型,同时保持数据本地化。现有的FL方法假设所有数据都有标签。但是,由于高标签成本,医疗数据通常没有完整的标签。自我监督的学习(SSL)方法,对比度学习(CL)和蒙版自动编码器(MAE)可以利用未标记的数据来预先培训模型,然后用有限的标签进行微调。但是,组合SSL和FL有独特的挑战。例如,CL需要不同的数据,但每个设备仅具有有限的数据。对于MAE而言,尽管基于视觉变压器(VIT)的MAE在集中学习中具有更高的准确性,但尚未研究MAE在未标记数据的FL中的性能。此外,服务器和客户端之间的VIT同步与传统CNN不同。因此,需要设计特殊的同步方法。在这项工作中,我们提出了两个联邦自制的学习框架,用于具有有限标签的皮肤病学诊断。第一个具有较低的计算成本,适用于移动设备。第二个具有高精度,适合高性能服务器。根据CL,我们提出了与功能共享(FedClf)的联合对比度学习。共享功能可用于不同的对比信息,而无需共享原始数据以获得隐私。根据MAE,我们提出了Fedmae。知识拆分将所学的全球知识与每个客户分开。只有全球知识才能汇总为更高的概括性能。关于皮肤病学数据集的实验表明,所提出的框架的精度优于最先进的框架。
translated by 谷歌翻译
皮肤病学疾病对全球健康构成了重大威胁,影响了世界上近三分之一的人口。各种研究表明,早期诊断和干预通常对预后和预后至关重要。为此,在过去的十年中,基于深度学习的智能手机应用程序的快速发展,该应用程序使用户可以方便,及时地识别出围绕皮肤出现的问题。为了收集深度学习所需的足够数据,同时保护患者的隐私,经常使用联合学习,在该数据集合数据集本地的同时汇总了全球模型。但是,现有的联合学习框架主要旨在优化整体性能,而常见的皮肤病学数据集则严重不平衡。在将联合学习应用于此类数据集时,可能会出现明显的诊断准确性差异。为了解决这样的公平问题,本文提出了一个公平意识的联邦学习框架,用于皮肤病学诊断。该框架分为两个阶段:在第一个FL阶段,具有不同皮肤类型的客户在联合学习过程中接受了训练,以构建所有皮肤类型的全球模型。在此过程中,使用自动重量聚合器将更高的权重分配给损失较高的客户,并且聚合器的强度取决于损失之间的差异水平。在后一个FL阶段,每个客户根据FL阶段的全球模型微调了其个性化模型。为了获得更好的公平性,为每个客户选择了来自不同时期的模型,以在0.05内保持不同皮肤类型的准确性差异。实验表明,与最先进的框架相比,我们提出的框架有效地提高了公平性和准确性。
translated by 谷歌翻译
有监督的深度学习需要大量标记的数据才能实现高性能。但是,在医学成像分析中,每个站点可能只有有限的数据和标签,这使得学习无效。联合学习(FL)可以从分散数据中学习共享模型。但是传统的FL需要全标签的数据进行培训,这非常昂贵。自我监督的对比学习(CL)可以从未标记的数据中学习进行预训练,然后进行微调,以有限的注释。但是,在FL中采用CL时,每个站点上的数据多样性有限,使联合对比度学习(FCL)无效。在这项工作中,我们提出了两个联合自制的学习框架,用于体积医学图像分割,并有限注释。第一个具有高精度,并适合高性能服务器,并具有高速连接。第二个具有较低的通信成本,适用于移动设备。在第一个框架中,在FCL期间交换了功能,以向每个站点提供各种对比度数据,以使本地CL保持原始数据的私密性。全局结构匹配将不同站点之间的统一特征空间保持一致。在第二个框架中,为了降低功能交换的通信成本,我们提出了一种优化的方法FCLOPT,该方法不依赖于负样本。为了减少模型下载的通信,我们提出了预测目标网络参数的预测目标网络更新(PTNU)。基于PTNU,我们建议距离预测(DP)以删除目标网络的大多数上传。在心脏MRI数据集上的实验表明,与最先进的技术相比,提出的两个框架显着改善了分割和泛化性能。
translated by 谷歌翻译
流量预测是智能交通系统中时空学习任务的规范示例。现有方法在图形卷积神经操作员中使用预定的矩阵捕获空间依赖性。但是,显式的图形结构损失了节点之间关系的一些隐藏表示形式。此外,传统的图形卷积神经操作员无法在图上汇总远程节点。为了克服这些限制,我们提出了一个新型的网络,空间 - 周期性自适应图卷积,并通过注意力网络(Staan)进行交通预测。首先,我们采用自适应依赖性矩阵,而不是在GCN处理过程中使用预定义的矩阵来推断节点之间的相互依存关系。其次,我们集成了基于图形注意力网络的PW注意,该图形是为全局依赖性设计的,而GCN作为空间块。更重要的是,在我们的时间块中采用了堆叠的散布的1D卷积,具有长期预测的效率,用于捕获不同的时间序列。我们在两个现实世界数据集上评估了我们的Staan,并且实验验证了我们的模型优于最先进的基线。
translated by 谷歌翻译
联合学习(FL)使分布式客户端能够学习共享模型以进行预测,同时保留每个客户端的培训数据本地。然而,现有的FL需要完全标记的培训数据,这是由于高标签成本和专业要求的要求而不方便或有时不可行。在许多现实设置中,缺乏标签会使流行不切实际。自我监督学习可以通过从未标记的数据学习来解决这一挑战,从而可以广泛使用FL。对比学习(CL)是一种自我监督的学习方法,可以有效地学习来自未标记数据的数据表示。然而,Clipers上收集的分布式数据通常在客户端之间通常不是独立和相同分布(非IID),并且每个客户端只有很少的数据类,这会降低CL和学习的表示的性能。为了解决这个问题,我们提出了由两种方法组成的联邦对比学习框架:特征融合和邻居匹配,通过该邻居匹配,以便获得更好的数据表示来实现客户端之间的统一特征空间。特征融合提供远程功能,作为每个客户端的准确对比信息,以获得更好的本地学习。邻域匹配进一步将每个客户端的本地功能对齐至远程功能,从而可以了解客户端之间的群集功能。广泛的实验表明了拟议框架的有效性。它在IID数据上以11 \%的方式表达了其他方法,并匹配集中学习的性能。
translated by 谷歌翻译
High Resolution (HR) medical images provide rich anatomical structure details to facilitate early and accurate diagnosis. In MRI, restricted by hardware capacity, scan time, and patient cooperation ability, isotropic 3D HR image acquisition typically requests long scan time and, results in small spatial coverage and low SNR. Recent studies showed that, with deep convolutional neural networks, isotropic HR MR images could be recovered from low-resolution (LR) input via single image super-resolution (SISR) algorithms. However, most existing SISR methods tend to approach a scale-specific projection between LR and HR images, thus these methods can only deal with a fixed up-sampling rate. For achieving different up-sampling rates, multiple SR networks have to be built up respectively, which is very time-consuming and resource-intensive. In this paper, we propose ArSSR, an Arbitrary Scale Super-Resolution approach for recovering 3D HR MR images. In the ArSSR model, the reconstruction of HR images with different up-scaling rates is defined as learning a continuous implicit voxel function from the observed LR images. Then the SR task is converted to represent the implicit voxel function via deep neural networks from a set of paired HR-LR training examples. The ArSSR model consists of an encoder network and a decoder network. Specifically, the convolutional encoder network is to extract feature maps from the LR input images and the fully-connected decoder network is to approximate the implicit voxel function. Due to the continuity of the learned function, a single ArSSR model can achieve arbitrary up-sampling rate reconstruction of HR images from any input LR image after training. Experimental results on three datasets show that the ArSSR model can achieve state-of-the-art SR performance for 3D HR MR image reconstruction while using a single trained model to achieve arbitrary up-sampling scales.
translated by 谷歌翻译